Web仔也來學ML [Day 6] - 資料的格式在數學上的表達

16th鐵人賽

dogcom0228

團隊真素有料

2024-09-18 23:39:36

134 瀏覽

分享至

輸入

我們知道監督式學習，就是要准備一個Data set,這個Data set裏面的每一筆資料都會有輸入的特徵和相對應的輸出的label。在數學上的定義爲有m種特徵的實數向量的有限集合，也就是：
X = {x̄_1, x̄_2, ... , x̄_n}, x̄ ∈ ℝ^m

然而在機器學習領域中，很多元素都存在隨機性，如數據採樣、模型初始化、優化算法、正則化等。

數據採樣：
Data Set通常非常龐大，可能無法一次性全部處理，因此，我們會隨機抽取一部分數據進行訓練，這稱為隨機採樣。又或者説，有時我們收集到資料也是從現實世界中隨機采樣而來。
不同的隨機採樣會導致模型學到略有不同的特徵，從而影響模型的最終表現。

因爲有了隨機性，因此我們需要在意在一個多變量分佈D之中取出的每一個x，我們希望所有的樣本都是獨立同分布的（i.i.d），所以這代表對於所有的x̄而言，他們都屬於同一個分佈D，且考慮一個有m個value的任意子集：
P(x̄_1, x̄_2, ... , x̄_m) = \prod_{i=1}^{m} P(x̄_i)